BOÎTE A OUTILS 2
Pour cette étape, le but est d’obtenir un texte qui soit étiqueté de façon morphosyntaxique. Pour cela nous avons à notre disposition deux programmes différents : CORDIAL et TREETAGGER.
Cordial
La première stratégie d’étiquetage consiste à utiliser Cordial. Certaines contraintes spécifiques au fonctionnement de Cordial rendent nécessaire une étape de prétraitement des fichiers :
- Le logiciel ne supporte pas les fichiers au-dessus d’une certaine taille.
- Les fichiers à traiter sont uniquement les sorties TXT.
- Les fichiers doivent être en ISO-Latin.
Transcodage
Comme nos fichiers sont en utf-8 et cordial ne travaille qu'avec des fichiers en ISO-Latin, il faut convertir les fichiers en ISO-8859-1. Pour faire le transcodage je vais utiliser un script perl :
Utilisation Cordial
Après avoir ouvert le logiciel, il suffit d'ouvrir le fichier texte à étiqueter et de sélectionner syntaxique > étiquetage. Les paramètres à appliquer sont les suivants :
Résultat
En selectionnant les paramètres ci-dessus, le fichier en sortie est un fichier .cnr contenant trois colonnes (séparées par des tabulations). La première colonne contient la forme du mot, la deuxième le lemme et la troisième la catégorie syntaxique.
Cliquez ici pour visualiser le résultat de la rubrique 'Cinema'
Tree Tagger
Utilisation Tree Tagger
La seconde stratégie d’étiquetage consiste à utiliser Treetagger. L’avantage de cet outil est qu’il est possible de l’utiliser en ligne de commande. La solution de TreeTagger est donc plus automatique que celle de Cordial, mais prend beaucoup plus de temps.
La syntaxe de Treetagger est la suivante :
treetagger.exe [options] <parameters> <input> <output>
Input et output correspondent aux fichiers d’entrée et de sortie. Il faut également préciser le chemin vers le fichier de paramètre pour la langue qu’on traite ainsi que les options d’étiquetage :
- lemma : affiche le lemme en sortie
- token : Imprime le mot dans la même forme qu’en entrée
- sgml : Imprime les informations morphologiques.
- Programme 'Perl'
- Script Perl pour la conversion de l'utf-8 en Latin 1
- Exemple de sortie - 'CULTURE.xml'
- La feuille de styles XSL
- La feuille de styles CSS pour la feuille de styles XSL
L'avantage est que Treetagger peut être intégré dans le script de la BAO 1. L'intégration de Treetagger se fait par une fonction &treetagger, qui convertit l'argument donné et renvoie le résultat en XML.
Procèdure d'étiquetage:
La création d'un fichier temporaire dans lequel stocker le texte (puisque Treetagger prend en argument un fichier) :
La tokenisation du fichier (pour mettre un mot par ligne) et son traitement subséquent par Treetagger :
La conversion du fichiers vers un fichier XML via le script "treetagger2xml-utf8.pl' fourni :
La lecture du fichier étiqueté et le renvoie de son contenu :
Résultat
L'écriture dans les fichiers de sortie est la même que pour les sorties de la BAO 1 sauf que le dossier de sortie s'appelle 'Sorties_Etiquetees', et au lieu de contenir les éléments titres et descriptions en format texte brut, les sorties contiennent les titres et descriptions étiquetés, comme suit :
Voici les exemples de résultats de deux rubriques en format HTML:
Cliquez ici pour visualiser le tableau de la rubrique 'Alaune'
Cliquez ici pour visualiser le tableau de la rubrique 'Cinema'
Téléchargements: